JSAI2026 非構造化コーパスを対象にしたエンティティ共起に基づく軽量なGraphRAG検索手法の提案

テーマ

非構造化テキストから、外部知識グラフなしで軽量なGraphRAG検索を行う研究

文書中のエンティティ共起だけで文書–エンティティ二部グラフを作り、ベクトル検索を補助する

背景課題

通常のRAGは、クエリとのベクトル類似度が高い文書を上位から取る

しかしマルチホップQAでは、必要な根拠が複数文書に分散し、クエリと直接似ていない文書も必要になる

既存のGraphRAGは有効だが、LLMによる関係抽出・要約・チューニングなどの前処理コストが高い

RAG

関連度が高い文書の検索には向いている

問題: 類似度が低いが正解である文書を拾えない

ロングテール問題

情報から要約や関係性を抽出したグラフを用いる

高度な意図を解釈した検索が可能

LightRAG: GraphRAGの軽量版

提案

Bubble Graph Preference（BGP）という軽量な検索統合手法を提案

Bubble Graph Preference

Step1: エンティティの二部グラフの構築

各文書からエンティティを抽出し、文書ノードとエンティティノードをつなぐ

Step2: root文書から関連文書を収集

グラフから追加候補として集める

2ホップ先までとるらしい

Step3: 共有エンティティの識別性に基づく関連文書スコアリング

TF-IDFの合算

Step4: ベクトル検索結果が不確かな領域の最順位付け

ベクトル検索スコアが拮抗している「不確実な帯域」（これをBubbleと呼ぶ）だけでグラフスコアを使う

常にグラフを使うわけではない

ポイント

グラフは「文書にどのエンティティが出たか」だけで作る

エンティティ間の関係抽出や要約生成は行わない

コストが低くていいね daiiz.icon

関連文書のスコアには、共有エンティティを単語のように扱った局所TF-IDFを使う

多くの文書に出る一般的なエンティティより、特定文書をよく区別するエンティティを重視する

ベクトル検索で十分に自信がある順位は崩さない

曖昧な順位だけをグラフで入れ替える設計

感想 daiiz.icon

GraphRAGを検索候補を広げる軽量な補助構造として扱っているのがユニーク

データベース的に使っている

ベクトル検索が不安的なときだけに作用する仕組みがよい